Amazon Transcribeのリアルタイム文字起こしを試してみた

Clock Icon2018.11.23


Amazon Transcribeがリアルタイム文字起こしに対応しました。 従来は非同期な文字起こししかできませんでしたが、今後は音声入力アプリのようにインタラクティブな文字入力ができるようになります。

Amazon Web Services ブログ : Amazon Transcribe でリアルタイムの文字起こしがサポート可能になりました


Amazon Transcribeの対応言語

Amazon Transcribeは以下の言語の文字起こしに対応しています。

  • 英語(アメリカ)
  • 英語(イギリス) ※ 2018/11/15 から
  • 英語(オーストラリア) ※ 2018/11/15 から
  • スペイン語
  • フランス語(カナダ)※ 2018/11/15 から

また、2018/11/16 より 以下の言語のプレビュー対応が始まっています。

  • フランス語(汎用)
  • ドイツ語
  • ポルトガル語(ブラジル)




  • マイク音声
  • 音声ファイル



デモアプリは AWS SDK for Java 2.0 を利用しているため、

  • Maven
  • Java 1.8+



GitHub のレポジトリ aws-samples/aws-transcribe-streaming-example-java で公開されています。

ソースコードを git clone もしくは Zip 形式でダウンロードし、 Maven でビルドします。

$ git clone
$ cd aws-transcribe-streaming-example-java
$ mvn clean package

AWS アカウント情報の指定


Amazon Transcribe は以下のリージョンで利用可能です。

リージョン論理名 物理名
US East (N. Virginia) us-east-1
US East (Ohio) us-east-2
US West (Oregon) us-west-1
Asia Pacific (Sydney) ap-southeast-2
Canada (Central) ca-central-1
EU (Ireland) eu-wast-1


「US East (N. Virginia)」 の場合は、以下の様にします。

$ export AWS_REGION=us-east-1


API 操作で利用するクレデンシャルを環境変数で指定します。

$ export AWS_ACCESS_KEY_ID=<your access key>
$ export AWS_SECRET_KEY=<your secret key>




$ java -jar target/aws-transcribe-sample-application-1.0-SNAPSHOT-jar-with-dependencies.jar

"Start Microphone Transcription" ボタンを起動し、ターミナルにトレースバックが表示されていなければ、成功です。


題材として Creative Commons な次の EC2 に関する米語の動画を利用しました。


ブラウザで動画を再生し、Mac ビルトインのマイクで音声を拾って、リアルタイムに文字起こしします。


  • YouTube の字幕
  • Transcribe の非同期文字起こし
  • Transcribe のリアルタイム文字起こし



動画開始箇所 字幕 バッチ リアルタイム
00:00 Whatever kind of application you run, it's pretty certain that you're going to need servers. Whatever kind of application you run, it's pretty certain that you're going to need service. Was that a kind of application you run. It's pretty certain that you're going to need service.
00:40 Amazon Elastic Compute Cloud or Amazon EC2 makes it easy for you to obtain virtual servers also known as compute instances in the cloud quickly and inexpensively. Amazon elastic, compute cloud or amazon to makes it easy for you to obtain virtual servers, also known as compute instances in the cloud quickly and inexpensively. I was an elastic computer cloud. I wasn't easy to make it easy for you to obtain virtual servers, also known as computer instances in the cloud quickly and inexpensively.
00:50 You simply choose the instant type you want, the template you'd like to use, which could be based on Windows or Linux and launch the quantity you need. He simply choose the instant saipi want temperature you'd like to use, which could be based on windows or lurks and launch the quantity you need. Simply choose the instance I want temperature would like to use which could be based on windows or looks. Launch the quantity you need.







Come on.
I can't allow you.
I can't allow you to
I can't allow you to
I can't allow you to obtain
I can't allow you to obtain comm.
I can't allow you to obtain compute.
I can't allow you to obtain compute.
I can't allow you to obtain compute kapow.
I can't allow you to obtain compute a pass.
I can't allow you to obtain computer capacity.
I can't allow you to obtain computer capacity.
I can't allow you to obtain computer capacity, sir.
I can't allow you to obtain computer capacity.
I can't allow you to obtain computer capacity. Significant.
I can't allow you to obtain computer capacity. Significant dis
I can't allow you to obtain computer capacity a significant discount.
I can't allow you to obtain computer capacity a significant discount.
I can't allow you to obtain computer capacity a significant discount beyond
I can't allow you to obtain computer capacity a significant discount beyond
I can't allow you to obtain computer capacity a significant discount the on demand
I can't allow you to obtain computer capacity a significant discount the on demand
I can't allow you to obtain computer capacity a significant discount the on demand price. ← 確定
We know
We know that.
We know that, sir.
We know that.
We know that secure.
We know that security.
We know that security is


なお、AWS や EC2 のような専門用語をうまく識別できていない件については、カスタム語彙を利用することで、単語の認識率が改善します。

文字起こしサービスAmazon Transcribeがカスタム語彙に対応しました

【新機能】Amazon Transcribeのカスタム語彙が頭字語に対応しました

HTTP/2 の採用


  • クライアントからサーバーに文字起こしする音声をストリーム
  • サーバーからクライアントに文字起こしされたテキストをストリーム


この機能は HTTP/2 の双方向通信で実現されています。

Q: Does Amazon Transcribe support real-time transcriptions?

Yes. Amazon Transcribe enables users to open a bidirectional stream over HTTP2. Users can send an audio stream to the service while receiving a text stream in return in real time.

先ごろ GA になった AWS SDK for Java 2 系は HTTP/2 通信に対応しており、このデモアプリでも早速活用されています。


従来の Amazon Transcribe は非同期に処理されるため、あくまでもアーカイブされた音源への応用が主体でした。 今回のリアルタイム対応により、一般ユーザーの慣れ親しむ音声入力と同じようなインタフェースを提供できるようになりました。

また、8月の Kinesis に続き(AWS News Blog : Amazon Kinesis Data Streams Adds Enhanced Fan-Out and HTTP/2 for Faster Streaming)、Transcribe でも HTTP/2 の API が提供された点も見逃せません。 Java V2 以外の SDK でも HTTP/2 対応が急速に進み、HTTP/2 通信の特性をいかした API がどんどん増えていくと思われます。

なお、AWS CLI(とベースを共有している Python SDK) は現時点で HTTP/2 に対応していないようです。




